| Année de publication | Nombre de publications |
|---|---|
| Loading... (need help?) |
Radioecology : Analyse de corpus de publications
1 Objet
La demande porte sur la constitution d’un corpus d’articles contenant le terme “radiocology” dans le titre et sur l’analyse de ce corpus :
- analyse quantitative : nombre de publications par date, par revue et par type de publication
- analyse lexicométrique
- Co-occurrences dans le champ titre
- Co-occurences avec le terme radioecology dans le titre
Cette note présente seulement des réponses de type programmatiques, deux outils complémentaires de etxt mining en ligne sont aussi présentés à la fin.
Les données brutes sont également téléchargeables depuis cette page (fin de page)
2 Constitution du corpus
2.1 Source Scopus
- Extraction (par l’interface web Scopus)
- Périmètre :
radio*ecolog*dans tous les champs et sur la période1964-2023 - Requête :
ALL ( radio*ecolog* ) - Nombre de résultats :
13 631 publications - Nombre de résultats après traitement :
11 129 publications
- Export des champs : ‘Authors’, ‘Title’, ‘Year’, ‘Source title’, ‘DOI’, ‘Document Type’, ‘Source’, ‘Publisher’, ‘Abstract’
2.2 Source Istex
Istex est un réservoir national d’archives scientifiques normalisées constitué par 4 opérateurs institutionnels (CNRS, Abes, consortium Couperin et Université de Loraine) suite à l’acquisition centralisée et pérenne de collections retrospectives de littérature scientifique auprès de multiples éditeurs. La plateforme Istex héberge et donne accès à 27 milions de publications, assorties de métadonnées enrichies.
- Plateforme Istex : https://www.istex.fr/
- Documentation : https://doc.istex.fr/
- Extraction (par l’API Istex)
- Périmètre :
radio*ecolog* dans tous les champs, filtre sur les docs de type article(beaucoup de bruit sinon) - Requête :
https://api.istex.fr/document/?q=radio*ecolog* AND genre:article&output=doi,title,abstract,author,publicationDate,genre,host.title&size=6000&extract=metadata[json] - Nombre de résultats :
5387 publications - Nombre de résultats après traitement :
5349 publications
- Export des champs : ‘doi’, ‘title’, ‘publicationDate’, ‘genre’, ‘author.name’, ‘host.title’, ‘corpusName’, ‘Abstract’
2.3 Dédoublonnage et corpus final
En concaténant puis dédoublonnant (sur le DOI et sur le titre) les deux datasets issus de Scopus et Istex, on obtient un corpus de 11 862 publications sur la période 1962-2023
3 Analyse quantitative
3.1 Nombre de publications par année (de publication)
3.1.1 Graphique
3.1.2 Données
3.2 Principales revues (Top 20)
3.2.1 Graphique
3.2.2 Données
| Revue | Nombre de publications |
|---|---|
| Loading... (need help?) |
3.3 Types de document
3.3.1 Graphique
3.3.2 Données
| Type de documents | Nombre de publications |
|---|---|
| Loading... (need help?) |
4 Analyse lexicométrique sur les titres
4.1 Wordcloud
<matplotlib.image.AxesImage at 0x1c865030280>
Nuage de mots (mots du titre)
4.2 Unigrammes (termes uniques les plus utilisés)
Le graphique ne montre que les 30 termes les plus fréquents
| word | count |
|---|---|
| Loading... (need help?) |
4.3 Co-occurences (bigrammes)
| bigram | count |
|---|---|
| Loading... (need help?) |
4.4 Co-occurences du terme radioecolog*
| bigram | count | |
|---|---|---|
| Loading... (need help?) |
4.5 Visualisation en graphe sur les titres (co-occurrences)
Une visualisation suplémentaire en graphe interactif à partir des co-occurrences dans les titres des publications a été produite avec l’instance en ligne du logiciel VOSwiewer et est accessible ici :
5 Analyse lexicométrique sur les abstracts
5.1 Wordcloud
<matplotlib.image.AxesImage at 0x1c868ce15a0>
Nuage de mots (mots des abstracts)
5.2 Unigrammes
| word | count |
|---|---|
| Loading... (need help?) |
5.3 Bi-grammes
| bigram | count |
|---|---|
| Loading... (need help?) |
5.4 Co-occurrences du terme radioecolog*
| bigram | count | |
|---|---|---|
| Loading... (need help?) |
5.5 Visualisation en graphe sur les abstracts (co-occurrences)
Une visualisation suplémentaire en graphe interactif à partir des co-occurrences dans les abstracts des publicatiosn a été produite avec l’instance en ligne du logiciel VOSwiewer et est accessible ici :
6 Télécharger les données
Trois types de fichiers ont été produits : - un fichier contenant les métadonnées des 11 862 publications - des fichiers contenant la liste des termes uniques et leurs fréquences - dans les mots du titre - dans les mots des abstracts - un fichier contenant la liste de toutes les paires de co-occurrences avec leurs fréquences d’apparition - dans les mots du titre - dans les mots des abstracts
Chaque fichier est disponible en formats .csv et .xlsx.
NB : le 1er fichier abstracts_network.gexf contient les données du réseau formé par les co-occurrences des abstracts structurées selon le format attendu par les outils de visualisation de graphes. Il est ainsi directement importable dans des logiciels tels que Gephi
7 Autres outils de text mining en ligne
Voyant Tools : https://voyant-tools.org/
Nocode functions : https://nocodefunctions.com/index.html
8 Code source
https://github.com/azur-scd/appui_recherche_corpus_radioecology